1
El cuello de botella del hardware: Memoria y límites de recursos
AI032Lesson 5
00:00

La computación de alto rendimiento moderna enfrenta un problema fundamental "Muro de memoria": el crecimiento explosivo en el rendimiento computacional (FLOPS) ha superado ampliamente los aumentos moderados en ancho de banda de memoria global ancho de banda. Esta discrepancia convierte los grandes conjuntos de núcleos en procesadores "hambrientos" esperando datos.

1. La brecha de ancho de banda

Aunque una GPU puede realizar trillones de operaciones por segundo, el camino físico hacia la DRAM está limitado por la densidad de pines y los requisitos de potencia. La memoria como factor limitante de la paralelización significa que al aumentar el número de hilos, el ancho de banda por hilo disminuye, lo que provoca ciclos de espera donde el hardware permanece inactivo.

2. La analogía de la cocina

Imagina una cocina de última generación (los núcleos de la GPU) capaz de cocinar 1.000 comidas por hora. Sin embargo, los ingredientes están en un almacén (memoria global) a cinco kilómetros de distancia, y solo hay una motocicleta de reparto (el bus de memoria). No importa cuántos chefs contrates, tu producción queda limitada por la velocidad de la motocicleta.

3. Contraste arquitectónico

Un sistema de CPU multinúcleo estándar utiliza cachés masivas para ocultar la latencia de unos pocos hilos pesados. Las arquitecturas paralelas masivas, sin embargo, enfrentan un constante "atascamiento de tráfico" de solicitudes concurrentes. Limitaciones de recursos a nivel de registro y memoria compartida determinan el nivel máximo de paralelismo (ocupación) alcanzable antes de que el hardware se sobrecargue.

Intensidad aritmética (FLOPs/byte)Rendimiento (GFLOPS)Limitado por memoriaLimitado por cómputo (pico)
main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>